Celem tej pracy jest zastosowanie różnych technik redukcji wielowymiarowośc oraz próba interpretacji uzyskanych wyników. Mam nadzieje, że uda mi się również wskazać metody najbardziej efektywne w kontekście moich danych. Do badania wykorzystam zbiór danych dotyczących różnych czynników wpływających na jakość życia w wybranych państwach świata. Zmienne wykorzystywane do analizy mają za zadanie reprezentować różne sfery życia takie jak zamożność, opieka zdrowotka, edukacja czy ochrona środowiska. Kraje które zostały dobrane są reprezentatywne dla każdego kontynentu oraz obejmują różne kręgi kulturowe, jakie możemy wyróżnić na kuli ziemskiej. Oto ich lista: Algeria, Argentina, Australia, Brazil, Canada, China, Colombia, Egypt, France, Germany, India, Indonesia, Japan, Mexico, New Zealand, Nigeria, Poland, Russia, Saudi Arabia, South Africa, Spain, Sweden, UK, USA. Wszystkie dane obejmują 2022 rok.
Zmienne użyte w badaniu:
life_expectancy: jest to zmienna mówiąca o oczekiwanej długości życia. Jej wysoka wartość świadczy o wysokim poziomie opieki zdrowotnej, odpowiedniej jakości i dostępności jedzenia oraz o dobrym stanie środowiska.
dp_per_capita: Produkt krajowy brutto w przeliczeniu na jedną osobę ($). W jego ustalaniu wzięto pod uwagę zmiany w sile nabywczej pieniądza w danym kraju. Jest to zmienna mówiąca o zamożności danego społeczeństwa. Im wyższa jej wartość, tym kraj jest bogatszy.
unemploymnet_rate: stopa bezrobocia (%). Jej wysoka wartość jest niepożądanym zjawiskiem, świadczy o tym, że na rynku brakuje wolnych stanowisk, co wiąże się z potencjalnym wzrostem ubóstwa w danym kraju.
crime_index: indeks przestępczości, to oszacowanie ogólnego poziomu przestępczości w danym kraju. Im niższa jego wartość, tym potencjalnie w danym kraju jest bezpieczniej.
air_quality_index: wskaźnik opracowany przez agencje rządowe w celu informowania społeczeństwa o obecnym stopniu zanieczyszczenia powietrza lub przewidywanym poziomie jego zanieczyszczenia. Jego wysokie wartości bardzo niekorzystnie wpływają na zdrowie człowieka, szczególnie na jego drogi oddechowe, mogąc w przyszłości prowadzić do wielu powikłań.
gini_index: wskaźnik Giniego (%), oparty na krzywej Lorenza, pokazuje nierówności w dochodach danego społeczeństwa. Należy interpretować go w ten sposób, że im jest wyższy, tym nierówności w dochodach w danym państwie są większe.
medical_doctors_per_10000: liczba lekarzy na 10 000 mieszkańców. Zmienna ta jest niezykle cenna w kontekście interpretowania dostepu do opieki zdrowotnej oraz samej jej jakości w danym kraju.
education_index: indeks edukacji. Jest jednym z komponentów używanych do tworzenia HDI. Bardzo cenny w konkeście określania jakości i dostępności od kształcenia w danym kraju. Im większa jego wartość tym jakość edukacji w danym miejscu jest większa
| Mean | SD | max | min | median | cv | |
|---|---|---|---|---|---|---|
| life_expectancy | 77.65 | 5.52 | 85.20 | 65.50 | 78.35 | 0.07 |
| gdp_per_capita | 26670.12 | 22517.59 | 75269.00 | 2184.00 | 16374.00 | 0.84 |
| unemploymnet_rate | 7.20 | 6.30 | 33.50 | 2.60 | 5.68 | 0.88 |
| crime_index | 46.48 | 13.46 | 76.10 | 22.10 | 46.30 | 0.29 |
| air_quality_index | 27.08 | 19.98 | 96.00 | 6.00 | 25.00 | 0.74 |
| gini_index | 40.64 | 10.58 | 58.80 | 25.60 | 37.65 | 0.26 |
| medical_doctors_per_10000 | 27.29 | 15.73 | 70.62 | 3.80 | 26.10 | 0.58 |
| education_index | 0.80 | 0.14 | 1.01 | 0.52 | 0.84 | 0.18 |
Tabela przestawia podstawowe statystyki opisowe odnoszące się do
naszych zmiennych.
W przypadku średniej długości życia średnia równa 77,65 jest dość
przybliżona do mediany która wynosi 78,35. Odchylenie standardowe wynosi
5,52 lat. Najkrótsze wartości oczekiwanej długości trwania życia można
przypisać Nigerii, natomiast największe Japonii.
W przypadku PKB per capita średnia (26670,125) znacznie różni się od
mediany (16374,00). Wpływ na to może mieć bardzo wysoka wartość PKB
krajów najbogatszych w naszym zestawieniu. Najmniejszy dochód krajowy
brutto per capita jest w Nigerii, a największy w USA.
W przypadku stopy bezrobocia znów średnia przewyższa medianę. Ma to
związek z istniejącymi wartościami odstającymi. Największe wartości
przypisujemy Japonii równe 2,6%, a największe RPA równe 33,5%.
Odchylenie wynosi 6,3%, a współczynnikk zmienności 0,88.
Indeks przestępczości Ma stosunkowo równe wartości mediany i
średniej. Odchylenie standardowe natomiast wynosi 13,46. Największą
przestępczości odnotowuje się w Południowej Afryce, a najmniejszą w
Japonii.
Indeks jakości powietrza również posiada przybliżone wartości
średniej i mediany. Wyraźnie w oczy rzucają się państwa w których
wartość indeksy jest największa np. Chiny (96).
Współczynnik Giniego również posiada przybliżoną wartość mediany i
średniej. Do państw o największej nierówności społecznej należą: Nigeria
(58,8) i Kolumbia (57,8), a najmniejsza nierówność szacowana jest w
Niemczech (25,6).
Dwa ostatnie współczynniki mają natomiast bardzo przybliżoną wartość mediany i średniej, co świadczy o ich stosunkowo równym rozkładzie. Odchylenie standardowe w przypadku liczby lekarzy na 10 000 mieszkańcow wynosi 15,73, a przypadku indeksu edukacji 0,14.
Powyżej zostały zaprezentowane wykresy pudełkowe dla poszczególnych
zmiennych.
Na pierwszym wykresie widzimy dane dotyczące przewidywanej długości
życia. Jak łatwo można zauważyć różnica między medianą i pierwszym
kwartylem a medianą i czwartym kwartylem jest dość podobna.
W kolejnym wykresie zobrazowana została wartość PKB per capita. Tutaj
już mediana jest przybliżona zdecydowanie w stronę pierwszego kwartyla,
co oznacza że państw ze wskaźnikiem PKB stosunkowo niskim jest
zdecydowanie więcej niż ze wskaźnikiem stosunkowo wysokim.
Trzeci wykres to zobrazowanie stopy bezrobocia w wybranych krajach.
Rozmiatr pudełka jest stosunkowo mały. Wynika to z faktu istnienia jedna
wartość silnie odstająca od pozostałych. Jest to outlier, który może
okazać się kłopotliwy w dalszych etapach analizy
Czwarty wykres odnoszący się do indexu przestępczości jest stosunkowo
symetryczny. Odległość między pierwszym i trzecim kwartylem jest równa a
mediana znajduję się pomiędzy nimi.
W przypadku indeksu jakości powietrza mamy do czynienia z mocno
odstającymi wartościami w przypadku 3 krajów które wyraźnie przekraczają
długość naszego pudełka. Te wartości również mogą być kłopotliwe w
dalszych analizach. Poza tym mediana znajduje się blisko 3 kwartyla, co
oznacza, że około 25% naszych państw posiada indeks jakości powietrza
zbliżony do warotści 25.
W przypadku wykresu odnoszącego się do współczynnika Giniego możemy
zauważyć stosunkowo dużą symetryczność danych. Mediana jest przesunięta
w stronę pierwszego kwartyla co oznacza, że więcej wartości ma
stosunkowo niski wskaźnik tego wsółczynnika.
Kolejnym wskaźnikiem jest liczba lekarzy przypadająca na 10 000
mieszkańców. Tu z kolei 50 % danych oscyluje w przedziale od ok 20 do 40
lekarzy. Można róznież zauwyażyć jedną wartość wyraźnie odstajaco od
pozostałych.
Ostatnią z naszych zmiennych jest indeks edukacji. W tym przypadku dane są stosunkowo symetryczne. Mediana jest przesuniąta w strone górnego kwartyla, Co wiąże się z faktem, że więcej państw posiada więszką wartość wspólcznynika edukacji.
Skalowanie wielowymiarowe jest eksploracyjną metodą SAD, która pozwala na wizualizację obiektów n-wymiarowych w przestrzeni m-wymiarowej (m<n). Polega ona na znalezieniu funkcji, która przekształca odległosci rzeczywiste na skalowane przy najmniejszej stracie informacji. Metoda ta dąży do rozmieszczenia obiektów jako punktów w przestrzeni n-wymiarowej, tak aby obiekty podobne do siebie znajdowały się bliżej. W naszej analizie użyejemy dwóch metod: klasycznego skalowania wielowymiarowego i metody skalowania Sammmona
Przed przystąpieniem do skalowania wielowymiarowego nasze dane standaryzujemy, ponieważ ich skala różni się zasadniczo. Natępnie obliczamy macierz odkległości.
Macierze odległości będziemy pokazywać dla skalowań w każdym wymiarze. Będą one jedynie pełniły funkcje poglądowe, gdyż ich interpretacja jest dużo bardziej skomplikowana i czasochłonna niż ma to miejsce w przypadku interpretacji gotowych wykresów.
Ideą klasycznego skalowania wielowymiarowego jest zmniejszenie
wymiaru danych przy jak najmniejszym zniekształceniu prawdziwych
odległości. Opiera się ona na odległościach euklidewsowych pomiędzy
obiektami.Jest to liniowa metoda jednokrokowa.
Do oceny naszego skalowania będziemy wykorzystywać współczynnik
STRESS, który jest pierwiastkiem z ilorazu sumy kwadratów różnic
odlełości między obiektami przed i po skalowaniu przez sume kwadratów
odległości między obiektami przed skalowaniem. Interpretacja
współczynnika STRESS jest następująca:
Teraz dokonamy skalowania do odpowiednio jednego, dwóch i trzech wymiarów. Dla każdego skalowania będziemy również obliczać funkcję STRESS, która będzie oceniałą jakość naszego skalowania
Macierz odległości po skalowaniu do jednego wymiaru:
Funckja STRESS dla skalowania do jednego wymiaru:
## [1] 0.4287655
Dokładnośc przekształcenia jest bardzo niska. Współczynnik STRESS wynosi, aż 42,88% co oznacza, że przekształcenie jest bardzo niedokładne. Będziemy musieli zatem spróbować przekształceń do wyższych wymiarów.
Macierz odległości po skalowaniu do dwóch wymiarów wymiaru:
Funckja STRESS dla skalowania do dwóch wymiarów:
## [1] 0.2563087
Współczynnik STRESS wynosi 25,63%. Jest to nie satysfakconujaca wartość onzaczająca bardzo słabe dopasowanie.
Nasze dane na wykresie 2D będą wyglądać następująco:
Macierz odległości po skalowaniu do trzech wymiarów wymiarów wymiaru:
Funckja STRESS dla skalowania do trzech wymiarów:
## [1] 0.1644685
Wartość współczynnika STRESS znacznie spadła. Wynik ten ozacza średnią dokładność naszego skalowania.
Nasze dane na wykresie 3D będą wyglądać następująco:
Choć dokładność skalowania jest co najmniej średnia, jesteśmy w stanie zauważyć pewne prawidłowości. Państwa o dość podobnych charakterystykach przybliżyły się do siebie i skumulowały w “grupy”. Wynika to z z samej mechaniki działania tej metody, która dąży do zminimalizowania odległości pomiędzy obiektami, które są do siebie podobne.
Jest to nielioniowa, iteracyjna procedura skalowania. Do jej użycia również wykorzystywane są odległości metryczne. Skalowanie Sammona w odróżnieniu od klasycznego skalowania skupia się na zachowaniu lokalnych struktur danych, dając większą wagę odległościom krótszym.
Tutaj również dokonamy skalowania do odpowiednio jednego, dwóch i trzech wymiarów. Dla każdego skalowania będziemy tekże obliczać funkcję STRESS, która będzie oceniałą jakość naszego skalowania
Macierz odległości po skalowaniu do jednego wymiaru:
Funkcja STRESS dla skalowania jednowymiarowego skalowania Sammona:
## [1] 0.1381932
Jak możemy łatwo zauważyć, już dla jednego wymiary wartość funckji STRESS jest znacznie mniejsza od tej samej wartości w przypadku klasycznego skalowania.
Funkcja STRESS dla skalowania jednowymiarowego skalowania Sammona:
## [1] 0.03365582
Wpółczynnik STRESS osiąga już zadowalający poziom. Wartość 3% świadczy o dobrym dopasowaniu.
Po skalowaniu 2D nasze dane prezentują się następująco:
Skalowanie dwuwymiarowe daje już całkiem satysfakcjonujące wyniki. Po prawej stronie naszego wykresu znajdują się państwa wysoko rozwinięte ze względną “wysoką jakością życia”. Są one dość mocno zagęszczone. Po lewej natomiast państwa drugiego i trzeciego świata, gdzie różnica w jakości życia jest znaczna. Możemy zatem wywnioskować, że oczekiwane przybliżanie do siebie państw po podobnych charakterystykach działa tutaj prawidłowo.
Funkcja STRESS dla trzywymiarowego skalowania Sammona:
## [1] 0.01099022
W przypadku trzywymiarowego skalowania Sammona wartość współczynnika
wynosi 1,1%. Możemy uznać to za bardzo dobry wynik i skalowanie daje
dobre dopasowanie.
Po skalowaniu 3D nasze dane prezentują się następująco:
W finalnej wersji naszego skalowania możemy zauważyć wyraźny podział na grupy państw o podobnej charakterystyce. Państwa bogate i o wysokim standardzie życia zbliżyły się do siebie. Podobnie jak kraje 3 świata i kraje Amertyki Południowej. Skalowanie spowodowało również znaczen oddalenie się od reszty państw, gdzie wartości różniły się znacznie od pozostałych tak jak np w przypadku RPA czy Indi.
Finalnie najbardziej satysfakconujące wyniki uzyskaliżmy dzięki
skalowaniu nieliniwoym Sammona. Wartość współczynnika STRESS dla tej
metody przy uwzględnieniu 3 wymiarów była bardzo zadowalająca. Można
było dzięki niej wnioskować, że nasze trzy “sztucznie” zyskane
zamiennnie bardzo wiernie przekazują informajce jakie zwierały nasze
początkowe zmienne użyte w analizie.
Warta zaznaczenia jest ogromna różnica jakości dopasowań między klasyczną metodą skalownia, a skalowaniem Sammona.Jak bardzo obie metody różniły się od siebie możemy sie przekonac poprzez analize powyższego wykresu. Zasadniczo dla każego wymiaru różnica w funkcji dopasowania była ogromna. Wynika to z samej mechaniki działania obu metod. Klasyczne MDS stara się zachować ogólną strukturę odległości, podczas gdy metoda Sammona koncentruje się bardziej na zachowaniu odległości między podobnymi obiektami. Ważne jest tu też sama funkcja STRESS, która w przypadku metody Sammona stosuję bardziej złożoną nieliniową metodę, która róznicuje odległości. W konkeście danych użytych do tej analizy i samej ich charakterystyki metoda Sammona dzięki swoim walorom okazała się dawać dużo bardziej wiarygodne wyniki.